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基于 递归 神经 网 络 的 视频 多 目标 检测 技术 


华 夏 人 王 新 晴 性 马 有 昭 烨 于 东 上 邵 发 明 . 
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摘 要 : 针对 现 有 基于 大 数据 和 深度 学 习 的 目标 检测 框架 难以 实现 在 低 功 耗 移动 和 睦 入 式 设 备 上 实时 进行 视频 目标 
检测 的 问题 ， 改 进 了 基于 深度 学 习 的 目标 检测 框架 SSD， 提 出 一 种 改进 的 多 目标 检测 框架 LSTM-SSD， 将 其 专用 于 
交通 场景 视频 多 目标 检测 。 将 单 图 像 检测 框架 与 递归 神经 网 络 LSTM 网 络 相 结合 ， 形 成 交织 循环 卷 积 结构 ， 通 过 采 
用 一 种 Bottleneck-LSTM 层 提 炼 传播 帧 间 的 特征 映射 实现 了 网 络 帧 级 信息 的 时 序 关 联 ， 极 大 降低 了 网 络 计算 成 本 ; 
将 时 间 感 知 信息 与 改进 的 动态 卡尔 受 滤 波 算 法 结合 起 来 ， 实 现 了 对 视频 中 受 光 照 变化 、 大 面积 遮挡 等 强 干 扰 影 响 目 
标的 追踪 识别 ; 实验 表明 ， 改 进 后 的 LSTM-SSD 在 应 对 多 目标 、 杂 乱 背 景 、 光 照 变 化 、 模 糊 、 大 面积 遮挡 等 检测 难 
度 较 大 的 情况 时 ， 均 能 获得 较 好 的 效果 ， 相 比 于 其 他 基于 深度 学 习 的 目标 检测 框架 ， 各 类 目标 识别 的 平均 准确 率 提 
高 了 S$~16%， 平 均 准 确 率 均 值 提高 了 约 4~10%， 多 目标 检测 率 提高 4~19%， 检 测 帧 率 达 到 43 fps， 基 本 满足 实时 性 
的 要 求 。 实 现 了 算法 精度 与 运行 速率 的 平衡 ， 取 得 较 好 的 检测 识别 效果 。 
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Video multi-target detection technology based on recursive neural network 


Hua Xia!, Wang Xinging!, Ma Zhaoye!, Wang Dong™’, Shao Faming! 
(1. PLA Army Engineering University, Nanjing 210007, China; 2.the 2nd Institute of Engineering Research & Design, 
Southern Theatre Command, Kunming 650222, China) 


Abstract: Aiming at the problem that the existing target detection framework based on big data and deep learning is 
difficult to realize real-time video target detection on low-power mobile and embedded devices, this paper improves the 
target detection framework SSD (single shot multi-box detector) based on deep learning, and puts forward an improved 
multi-target detection framework LSTM-SSD (long short term memory, LSTM) , which is dedicated to multi-target 
detection of traffic scenes video. Combining single image detection frame with recursive neural network lstm network to 
form an interleaved circular convolution structure, the temporal association of network frame-level information is realized 
by extracting the feature map between propagation frames by adopting a little neck - lstm layer, which greatly reduces the 
network calculation cost. Combining the time-aware information with the improved dynamic Kalman filtering algorithm, 
the tracking and identification of the targets which are influenced by strong interference such as light change and large-area 
occlusion in the video can be realized. Experimental results show that the improved lstm - SSD can achieve good results 
when dealing with the difficult detection situations such as multi - targets, cluttered background, light changes, fuzziness 
and large-area occlusion. compared with other target detection frameworks based on deep learning, the average accuracy 
rate of all kinds of target identification is increased by 5~16 %, the average accuracy rate 1s increased by 4~10 %, the 
multi-target detection rate is increased by 4~19 %, and the detection frame rate reaches 43 frames / s, basically meeting the 
requirements of real-time. The balance between the accuracy of the algorithm and the running speed is achieved, and a good 
detection and identification effect is achieved. 
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度 学 习 的 目标 检测 算法 可 应 用 于 多 种 检测 场景 ， 综 合 性 强 ， 

能 够 同时 检测 和 识别 多 类 目标 ， 主 动 性 好 。 各 种 类 型 的 人 工 
示 检测 与 识别 是 目标 检测 技 ” 神经 网 络 结构 中 ， 深 度 卷 积 网 络 具 有 强大 的 特征 提取 能 力 ， 
术 的 重要 分 支 ， 是 自动 驾驶 、 机 器 人 以 及 智能 视频 监控 等 越 来 越 多 的 用 于 图 像 分 类 的 网 络 结构 被 提出 ， 不 断 提 升 


了 深 


究 领 域 的 核心 技术 ， 有 着 重要 的 研究 意义 1。 度 卷 积 网 络 在 特征 提取 方面 的 优势 , 在 图 像 识 别 、 图 像 分 割 、 
深度 学 习 为 基于 深层 人 工 神 经 网 络 的 学 习 方法 ， 基 于 深 ”目标 检测 、 场 景 分 类 等 视觉 任务 中 ,取得 了 非常 好 的 效果 外。 
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SSD， 人 全称 single shot multibox detectorGl]， 是 Liu Wei 


在 ECCV 2016 上 提 昌 


下 主要 特点 : 从 YOLO 
路 ， 同 时 一 次 即 可 完成 网 络 训练 ， 基 


8 的 一 种 目标 检测 算法 , 截至 目前 是 了 
的 检测 框架 之 一 ， 相 比 Faster RCNNIJ 有 明显 的 速度 优势 ， 
相 比 YOLOG 又 有 明显 的 平均 准确 率 均值 优势 。SSD 具有 妇 
继承 了 将 检测 问题 转换 为 
于 Faster RCNN 


要 


I 


归 的 思 
中 的 


anchor, 提出 了 相似 的 prior box; 加 入 基于 特征 金字 塔 中 的 检 


测 方式 ， 相 当 


训练 过 程 非 常 
像 的 颜色 、 边 


通过 图 


于 半 个 FPNIS 思 路 。 尽管 SSD 在 特定 数据 集 上 
已 经 取得 了 较 高 的 准确 率 ， 具 有 较 好 的 实时 性 ， 但 是 模型 的 
耗 时 ， 对 训练 样本 的 质 和 量 依赖 严重 ; 


缘 等 信息 来 检测 目标 ， 其 对 于 弱小 目标 和 大 面 


积 遮 挡 目标 等 


缺乏 图 像 信 息 的 目标 检测 效果 不 佳 ， 算 法 检测 


效率 仍然 有 待 
本 文 针 对 
特点 和 需求 ， 
单 图 像 检 测 框 


播 帧 间 的 特征 
氏 了 网 络 计算 
滤波 算法 结合 


LSTM-SSD 在 
面积 遮挡 等 检 


提高 ? 以 


足 装 备 运行 实时 性 的 要 求 。 


复杂 大 交通 场景 下 行人 、 车 辆 目标 检测 任务 的 
对 传统 SSD 算法 进行 了 以 下 两 点 改进 : a) 将 


架 与 递归 神经 网 络 -LSTM 网 络 相 结合 , 形成 交 
织 循环 卷 积 结构 ， 通 过 采用 一 种 Bottleneck-LSTM 


成 本 ; b) 将 时 间 感 知 信息 与 改进 的 动态 卡尔 曼 
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有 联合 卷 积 递归 单元 的 特征 映射 。 目 标 是 卷 积 层 输 出 特征 映 
射 假设 ， 然 后 将 该 假设 馈送 到 LSTM 并 与 来 自 先前 帧 的 时 间 
背景 信息 融合 以 输出 精细 的 时 间 感 知 特征 映射 。 
人 类 不 会 每 秒 钟 都 从 头 开始 思考 ， 人 类 的 思想 具有 连贯 
性 。 但 是 传统 的 神经 网 络 做 不 到 这 一 点 ， 这 是 一 个 主要 的 缺 
点 。 递 归 神 经 网 络 (recurrent neural network, RNN) 较 好 地 
解决 了 这 个 问题 。 它 们 是 具有 环 路 的 网 络 ， 允 许 信息 持续 存 
在 .RNN 优势 之 一 在 于 它们 能 够 将 先前 的 信息 关联 到 当前 的 
任务 中 , 比如 用 之 前 的 视频 帧 可 以 辅助 理解 当前 的 视频 帧 由 。 
长 短期 记忆 (long-short term memory, LSTM) 是 一 种 特殊 的 
RNN， 它 被 设计 用 来 避免 长 期 依赖 的 问题 ， 由 于 独特 的 设计 
结构 ，LSTM 适合 于 处 理 和 预测 时 间 序 列 中 间隔 和 延迟 非常 
长 的 重要 事件 。 
提出 了 一 种 将 卷 积 LSTMs 结合 到 单 图 像 检测 框架 中 的 
方法 ， 作 为 跨 时 间 传 播 帧 级 信息 的 手段 。 然 而 ，LSTMs 的 简 


层 提 炼 传 
映射 实现 了 网 络 帧 级 信息 的 时 序 关联 ， 极 大 降 


单 集成 会 导致 较 大 的 运算 量 ， 妨 碍 网 络 实时 运行 。 为 了 解决 
这 个 问题 , 引入 了 一 个 Bottleneck-LSTMI1, 利用 它 具 有 深度 
可 分 离 卷 积 和 Bottleneck 设计 原则 的 特性 ， 降 低 计 算 成 本 。 


起 来 ， 实 现 了 对 视频 中 受 光照 变化 、 大 面积 庶 


挡 等 强 干 扰 影 响 目 标的 追踪 识别 。 实 验 表明 ， 改 进 
光照 变化 、 模 糊 、 
得 较 好 的 效果 


应 对 多 目标 、 杂 乱 背 景 、 


测 难度 较 大 的 情况 时 ， 均 能 者 


1 ”基于 时 间 感 知 特征 映射 的 视频 目标 检测 框架 


SSD 采用 


了 特征 金字 塔 结构 进行 检测 


， 即 检测 时 利 


后 的 


大 


| 


conv4-3, conv-7 (FC7), conv6-2, conv7-2, conv8_2, conv9 2 
这 些 大 小 不 同 的 feature maps， 在 多 个 feature maps 上 同时 进 
行 softmax 分 类 和 位 置 回归 ， 对 弱小 目标 有 较 好 的 检测 精度 


Gl， 其 网 络 结构 如 区 


VGG-16 


-也 bm 加 Rao 加 gf 


1 所 示 。 


Exra Feature Layers 


图 2 是 LSTM-SSD 的 网 络 结构 。 网 络 中 插入 多 个 卷 积 LSTM 
层 。 每 个 都 以 一 定 的 比例 传播 和 提炼 特征 映射 。 


i 5 


图 2 LSTM 视频 目标 检测 网 络 框架 


Fig.2 LSTM video target detection network framework 
将 视频 数据 视 为 多 帧 图 像 组 成 的 序列 ，V={10,4,…,1}， 
目标 是 得 到 帧 级 的 检测 结果 {DB,D…,D,} ， 其 中 Dk 表示 对 图 
像 帧 Ik 的 检测 结果 , 包括 一 系列 对 各 个 目标 检测 的 检测 框 的 


二 = ee Cam baxlnl Classes+4)) "| 5 
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图 1 SSD 网 络 架 构 
Fig. 1 SSD network architecture 
视频 图 像 数据 包含 多 种 时 间 线 索 ， 与 单个 图 像 相 比 ， 它 
们 可 以 被 展开 以 获得 更 准确 和 稳定 的 目标 检测 。 由 于 视频 表 
现 出 时 间 连 续 性 ， 相 邻 帧 中 的 目标 将 保持 在 相似 的 位 置 ， 
且 检 测 结果 将 基本 不 变 。 因 此 ， 可 以 使 用 来 自 较 早 帧 的 检测 
结果 信息 来 细 化 当前 帧 处 的 预测 结果 。 由 于 网 络 能 够 跨 帧 以 
不 同 状 态 检测 目标 ， 随 着 训练 时 间 的 推移 ， 网 络 的 预测 结果 
也 将 变 得 有 更 高 的 置信 度 ， 从 而 有 效 减 少 单 图 像 目 标 检 测 中 


存在 的 不 稳定 性 问题 7。 


从 视频 的 相 邻 


仅 是 


最 新 研究 表明 ， 这 种 连续 1 


生 可 以 延伸 到 特征 空间 ， 


抽 提 取 的 过 渡 特 征 映射 也 


有 高 度 相关 相 


性 


征 映射 调整 到 先前 帧 的 相应 特征 


该 方法 将 标 交 


决 射 上 来 利 ) 


性 。 感 兴趣 的 是 在 特征 空间 中 也 添加 时 间 感 知 机 制 ， 而 不 仅 
在 最 终 检 测 结果 上 添加 时 间 感 知 机 制 ， 这 是 因为 中 间 


中 可 用 的 信息 量 更 大 。 通 过 递归 网 络 体系 结构 将 每 个 帧 的 特 


且 
关 


三 


到 
十 


二 


特征 级 的 连续 


立 置 ， 以 及 对 各 个 目标 的 识别 置信 度 。 考 虑 构造 一 种 在 线 学 
习 机 构 , 使 得 检测 结果 Di 可 以 由 图 像 帧 天 进行 预测 和 修正 。 
将 预测 模型 当做 函数 


(1) 


5 = 中 及 …s"} ， 表 示 描 述 视频 第 帧 图 像 的 特征 
映射 向 量 , 构造 一 个 具有 m 层 LSTM 卷 积 层 的 神经 网 络 来 近 
以 地 实现 这 个 函数 功能 。 这 个 神经 网 络 把 特征 映射 向 量 si 
中 的 每 个 特征 映射 作为 LSTM 卷 积 层 的 输入 ， 可 以 得 到 对 应 
的 特征 映射 向 量 w。 要 获得 整个 视频 的 检测 结果 ， 只 需 通过 
网 络 顺序 运行 每 帧 图 像 。 

当 应 用 于 视频 序列 时 ， 可 以 将 LSTM 状态 理解 为 为 表示 
时 序 的 特征 。 然 后 ，LSTM 可 以 在 每 个 时 序 步 又 使 用 时 序 特 


F(1,s1)=(D,,s,) 


用. 中 : 


E 卷 积 层 与 卷 积 LSTM 网 络 相 结合 ， 生 成 具 


征 来 细 化 其 输入 ， 同 时 还 从 输入 提取 附加 的 时 间 信 息 并 更 新 
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其 状态 。 这 种 精 纪 化 模式 可 以 通过 在 任意 中 间 特 征 映射 上 紧 Qlsim 应 用 于 LSTM 层 。 设置 Qpbase =0, Qssd =0.50, Qlstm =0.25 w。 
接着 放置 LSTM 卷 积 层 来 应 用 .特征 映射 用 作 LSTM 的 输入 ， ”每 个 LSTM 的 输出 是 输入 大 小 的 四 分 之 一 , 这 大 大 减少 了 所 
LSTM 的 输出 将 在 以 后 的 所 有 计算 中 替换 之 前 的 特征 映 ” 需 的 计算 。 
射 。 可 以 将 单 帧 图 像 目标 检测 器 定义 为 函数 G(1)=D:， 该 函 同时 通过 采用 一 种 新 的 Bottleneck-LSTMM, 极 大 地 提高 
数 将 用 于 构造 具有 m 个 LSTM 层 的 复合 网 络 。 可 以 将 这 些 。 了 传统 LSTM 的 运算 效率 
ye 天 户 日 J 名 二 淖 全 层 书 || 从头 人 人 二 也 

ee 入 县 看 做 是 将 函数 G 的 展 划 分 为 m+1l 个 合适 的 子 网 b =G(" "Ww *[x,h,]) (5) 
络 {80,81,…,8m} ， 则 

其 中 ; xr ， hr 为 输 ] 特 和 本 ， =ReLU ， ReLU 

em (2) P: x 1 为 输入 的 特征 映射 ，$(x)=ReLU(x) e 


o 表示 哈达 玛 乘 积 (hadamard product)。 本 文 同样 将 任意 


层 LSTM 卷 积 层 定义 成 为 函数 


=(M,,st) 


(3) 


映射 。 则 按照 时 序 进行 计 


L (M, st) 
其 中 : M、M; 都 是 同 维度 的 特征 
算 ， 公 式 如 下 : 
(M?,s?)=L, 
(M15)= 5 (gi (Me),sn) 
= 


D,= 


上 ，LSTM 层 的 输入 和 输 


mg (Me ),s) 
gl) 


图 3 描述 了 整个 模型 在 处 理 视 


出 可 以 


4\ 有 不 同 的 维度 


每 个 子 网 F 的 第 一 卷 积 层 的 输入 维 


同 的 计算 。 


(4) 


频 时 的 输入 和 输出 。 实 际 
虑 ， 但 是 只 要 
度 被 修改 ， 就 可 以 执行 相 


Forget Gate 
HxWXN 


HxWxN 


Bottleneck Gate 


Input Gate 
HXWxN 


HxWxN 


Output Gate 
HxWxN 


表示 ReLU 激活 。ReLU 表示 修正 线性 单元 (Rectified linear 
unit，ReLU) 激活 ， 虽 然 ReLU 激活 在 LSTMs 中 并 不 常用 ， 
但 是 不 改变 特征 映射 的 边界 很 重要 ， 因 为 LSTMs 散布 在 卷 
积 层 之 间 。7W4*X 表示 具有 权重 W、 输 入 X、j 输入 通道 和 大 
输出 通道 的 深度 可 分 离 卷 积 。 这 种 修改 的 好 处 是 双重 的 。 使 
用 瓶颈 特征 映射 减少 了 门 内 的 计算 ， 在 所 有 实际 场景 中 均 优 
于 标准 LSTMs。 其 次 ，Bottleneck-LSTM 比 标准 的 LSTM 更 
深 ， 而 较 深 的 模型 优 于 较 宽 和 较 浅 的 模型 


2 ”针对 受 强 干扰 目标 的 检测 改进 策略 


复杂 交通 场景 中 的 遮挡 、 光 照 、 阴 影 等 强 干 扰 现 象 会 造 
成 目标 外 观 信息 损失 ， 致 使 检测 过 程 中 容易 出 现 目标 遗漏 。 
训练 有 素 的 卷 积 神经 网 络 可 以 应 对 一 定 程 度 的 干扰 ， 但 无 法 
应 对 大 面积 遮挡 等 强 干 扰 造 成 目标 图 像 信息 严重 缺失 。 对 此 
本 文 提出 时 空 上 下 文 策略 ， 从 之 前 的 检测 结果 中 获取 有 用 的 
先 验 信息 合理 预测 少量 候选 区 域 ， 增 加 目标 被 检测 的 几率 。 
这 一 思路 借鉴 了 目标 跟踪 的 方法 来 优化 检测 结果 00。 
卡尔 曼 滤 波 和 粒子 滤波 常常 被 用 于 跟踪 算法 中 。 卡 尔 曼 
滤波 使 用 有 三 个 前 提 假 设 . 被 建 模 的 系统 是 线性 的 ， 影 响 测 
量 的 噪声 属于 白 噪声 ;噪声 本 质 上 是 高 斯 分 布 的 。 很 显然 ， 
由 于 摄像 机 的 运动 和 神经 网 络 本 身 复杂 的 非 线 性 上 映射， 目标 
在 视频 中 的 位 置 和 置信 度 并 非 线性 变化 的 50。 但 本 文 只 是 将 
滤波 作为 提高 候选 区 域 质量 的 辅助 手段 ， 而 且 在 短 时 间 内 目 
标 可 以 近似 看 成 线性 运动 。 所 以 本 文选 择 卡 尔 曼 滤波 作为 在 
前 一 帧 和 当前 帧 之 闻 传 递 目 标 信息 的 工具 ， 结 合 目 标 检 测 任 
务 设计 卡尔 曼 滤 波 模型 。 

D.={X?, 台 ,…,X?} 表示 使 用 未 加 入 滤波 的 检测 器 对 图 像 
帧 的 检测 结果 ， Xi=[&,yh,ak,,ci,di] x, y, a,b ,d 分 别 为 第 
k 帧 某 一 目标 t 外 接 和 矩形 框 的 左上 角 坐 标 和 宽 高 ，c 为 目标 
置信 度 , d 为 目标 所 属 类 别 。 通 过 LSTM 可 以 获得 视频 第 k+1 


起 


图 3 Bottleneck-LSTM 模型 处 理 视频 输入 和 输出 > 


Fig.3 Schematic diagram of the Bottleneck-LSTM model processing 


video input and output 


在 本 文 的 体系 结构 中 ， 
地 放置 LSTM 会 导致 较 大 的 数 ] 


增长 导致 运算 效率 低 


有 最 低空 间 维度 的 特征 映射 之 后 考虑 LSTM 放置 。 
于 需要 在 单个 前 向 通道 
对 计算 资源 有 着 较 高 的 要 求 ， 这 极 大 地 影响 
引入 了 


率 。 为 了 解决 这 个 问题 ， 


居 输 入 


通过 实验 选择 了 G 的 分 区 
量 , 并 且 计 算 成 本 爆炸 


区 较 早 


。 为 了 保证 算法 的 运算 效率 ， 仅 在 具 


一 系列 的 更 
谷 。 


能 够 与 实时 移动 目标 检测 的 


的 旭 


首先 ， 考虑 调整 LSTM 的 维 


FP 计 算 多 个 门 ， 所 以 LSTMs 
网 络 的 整体 效 
改 ， 使 LSTMs 


度 。 通 过 扩展 在 文献 


义 的 通道 宽度 乘 子 ws ， 可 以 获得 对 网 络 结构 更 


始 宽度 倍增 器 是 用 于 缩放 每 个 


P 定 


3 对 泵 
o /小 


层 的 通 


道 尺寸 的 超 参 数 ，1 


是 将 这 个 乘 数 统一 应 用 


Qbase ~ Qssds Qlstm, 它 们 控制 网 络 不 同 部 分 . 目 目 


于 所 有 层 


。 引 入 了 三 个 新 的 参数 


ij 不 


N eh 网 络 中 的 任何 给 


Nabase 小 芋 本 输 出 通 


有 


o 
、 
~ 
< 


而 assa 应 用 于 所 有 SSD 特征 映射 ， 


帧 的 检测 结果 De 的 预测 值 应, ,但 是 因为 预测 过 程 中 存在 品 


声 等 因素 干扰 产生 的 误差 ， 如 果 不 对 预测 结果 加 以 修正 ， 那 
么 在 视频 检测 的 过 程 中 误差 将 因为 迭代 过 程 而 被 无 限 地 放 
大 ， 为 了 避免 出 现 这 种 情况 ， 将 视频 第 k+l 帧 的 初 检 测 结果 


Zz 作为 测量 值 对 LSTM 的 预测 值 训 , 进行 修正 , 即 采用 “ 预 
测 + 测量 反馈 ”的 方式 获得 视频 第 k+1 帧 的 检测 结果 Pu 的 估 
计 值 p。。 则 系统 的 估计 值 滤波 方程 为 


Xi =Ar XE + Ken [a —HinAr XL | (6) 

系统 的 测量 方程 为 
Zi = HX + Ven (7) 

卡尔 曼 增 益 方程 为 
Ki = PnH’ (HP HT + Vn J (8) 
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预测 误差 协 方差 矩阵 方程 为 


修正 误差 协 方差 矩阵 方程 为 


| 


为 观测 噪声 ， 均 为 高 斯 


噪声 。 


Ran 和 Xi 的 初始 值 分 别 为 B=W 和 


t 出 现 的 第 一 帧 检测 结果 的 状态 向 量 ， 作 为 第 一 帧 的 估计 值 
传递 给 第 二 帧 进行 滤波 ， 其 中 五 个 变化 


前 帧 的 预测 


标 t 出 现 第 三 帧 开始 , 取 


为 该 帧 图 像 的 
并 提取 池 化 特征 。 


I 


个 数 增加 时 增加 相应 个 数 的 滤波 器 。 此 外 ， 本 文 设 定 当 目 标 


Pye =4 有 4 +W 


4 =(T- KinH )P. 


4 为 状态 转移 和 矩阵，Hi 为 观测 矩阵 ， 


该 滤波 器 (1。 


连续 十 帧 滤波 值 对 应 的 候选 区 域 没有 作为 检 闹 
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值 初始 化 为 0。 从 目 
值 # 和 估计 值 次 作 


个 候选 区 域 ， 连 同 SSD 提取 的 候选 区 域 一 
该 帧 检测 结束 后 ， 将 结果 作为 该 帧 滤波 值 
送 入 下 一 帧 滤波 。 当 出 现 多 个 目标 时 则 分 别 进 


(9) 


(10) 


wx 为 状态 噪声 vx 


行 滤波 ， 目 标 


出 


YFCC100M 收集 
据 集 上 进行 了 实验 。 
院 和 丰田 美国 技术 厂 


据 集 中 第 1 个 图 片 集 download left 
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的 交通 场景 数据 集 (Web dataset ) 和 KITTI 数 
KITTI 数据 集 由 德国 卡尔 斯 鲁 厄 理工 学 
究 院 联 合 创 办 ， 是 目前 国际 
动 驾 驶 场景 下 的 计算 机 视觉 算法 评测 数据 集 。 选 用 


上 最 大 的 自 


KITTI 数 


color images of object data 


set 和 标注 文件 download training labels of object data set ,其 


中 7481 张 训练 图 片 有 标注 信息 ， 


训练 脚本 是 基于 VOC 数据 集 格式 的 ,、 需 要 把 KITTI 数据 集 
做 成 PASCAL VOC 的 格式 , PASCAL VOC 数据 集 总 共 20 个 


而 测试 图 片 没 有 。SSD 中 


类 别 ， 本 文 为 数据 集 设置 3 个 类 别 “Car”“Cyclist? 


‘Pedestrian’ 。 


索 关键 词 “行人”、“ 道 路 ”和 


YFCC100M 数据 集 包 含 将 近 1 亿 张 图 片 以 
及 摘要 、 标 题 和 标签 。 为 了 更 好 地 展示 本 文 的 方法 
“车 辆 ”从 YFCC100M 数据 集 


> 通过 搜 


收集 了 1000 幅 分 辨 率 较 高 的 测试 图 像 。 对 于 该 数据 集 , 使 用 


至 少 16 像素 宽度 和 小 于 50 % 和 遮挡 


上 结果 时 ， 取 消 


改进 后 整体 的 检测 算法 框架 流程 如 图 4 所 示 


图 4 改过 


后 算法 整体 框架 


Fig.4 Improved overall framework of the algorithm 


算法 流程 如 下 : 


a) 将 单 帧 视频 图 像 输 入 SSD Detector 结合 
递 的 预测 各 层 feature map 进行 目标 检测 识别 , 获得 初 检测 结 


果 Rj; 


LSTM 网 络 传 


b) 通 过 LSTM 网 络 传递 获得 当前 帧 的 预测 检测 结果 Rz， 


果 尼 结 合 起 来 ， 获 得 最 终 的 检测 识别 结果 Rs; 
o) 将 当前 帧 检测 过 程 中 产生 的 各 层 feature map 以 及 检测 
结果 Rs 输入 LSTM 网 络 ， 对 下 一 帧 的 检测 结果 进行 预测 指 


导 
奸 。 


3 ”实验 结果 与 分 析 


3.1 实验 的 基础 条 件 与 数据 集 库 
本 文 实验 使 用 


Dell Precision R7910(AWR7910) 图 形 工 


通过 dynamic Klaman fliter， 将 初 检测 结果 R 和 预测 检测 结 


作 站 ， 处 理 器 为 Intel Xeon E5-2603 v2(1.8 GHz/10M)， 采 用 


NVIDIA Quadro K620 GPU 加 速 运 入 


。SSD 是 


< 


于 深度 学 习 


框架 Caffe 来 运行 的 。Caffe 支持 CPU 和 GPU 的 并 行 运 


算 ， 使 得 计算 量 庞大 的 深度 学 习 得 以 在 短期 内 完成 。 本 文 在 


像 在 较 长 的 一 侧 被 重新 缩放 到 2000 像素 , 以 适合 本 文 的 GPU 


内 存 。 实 验 中 将 所 有 的 图 像 尺寸 归 
3.2 实验 的 参数 设置 


本 文选 择 SSD 系列 中 的 SSD512 进行 改进 ， 


供 了 大 、 中 、 小 三 个 规模 的 深度 卷 


对 所 有 目标 进行 注释 。 轿 


一 化 为 320 x 320。 


SSD512 提 


积 神 经 网 络 模型 ， 本 文选 


取 中 等 规模 的 VGG_CNN_M_1024 模型 作为 基础 模型 ， 改 


动 与 目标 类 别 数 
而 本 文 只 有 3 类 )。 


相关 的 参数 〈 原 


模型 需要 识别 20 类 目标 


为 了 优化 调 参 过 程 以 及 快速 选 


取 自 适应 池 化 纠正 误差 项 


的 最 佳 值 ， 制 作 了 小 样本 数据 集 (200 张 图 像 )， 在 很 大 程度 


上 节约 了 时 间 成 本 ， 提 高 了 调 参 选 
上 既 要 考虑 总 体 的 类 别 数 ， 又 要 考 


值 效 率 。 在 小 样本 的 抽取 
虑 每 种 类 别 占 总 体 的 比例 


大 小 ， 而 概率 抽样 方法 中 的 分 层 
3。 因此 按照 该 抽取 规则 ， 小 样本 
以 代表 原始 数据 集 ， 通 过 小 样本 数 
数 在 一 定 的 程度 上 能 够 适应 原始 数 
值 时 ， 


持 默 认 不 变 ， 后 续 所 有 实验 都 在 以 


阔 值 设置 为 0.7; 将 所 有 实验 中 经 过 非 极 大 抑制 留 下 
的 候选 区 域 数量 设置 为 100 (默认 设置 为 300)。 其 他 设置 保 


样 能 够 很 好 地 兼顾 此 两 点 
数据 集 在 一 定 的 程度 上 可 
据 集训 练 所 得 的 最 优 超 参 
据 集 。 在 不 使 用 自 适应 阐 


nm 


上 设置 基础 上 进行 。 对 


LSTM， 将 LSTM 展开 到 10 个 步 又， 并 按照 10 


顺序 列 进行 


训练 ， 通 道 宽度 乘 子 a6=1， 模 型 学 习 率 为 0.003， 其 他 参数 


与 文献 [7] 一 致 。 
3.3 评价 指标 


在 多 目标 分 类 器 的 判别 
单 种 目标 的 判别 仍然 遵循 每 一 入 
性 ， 即 


i 


-ti 


假 


别 中 ， 设 


标的 种 类 数 为 n 。 对 


段 设 有 两 种 结果 的 四 种 可 能 


设 Di(j=1,2,…,n) 表示 一 种 
何 三 元 假设 实验 问题 中 ， 作 判别 于 
Hi 假设 为 真 ， 判 别 为 Di ; b) 琵 
Hi 假设 为 真 ， 判 别 为 Di ; d) Hi 
和 d) 对 目标 
有 目标 而 识别 为 有 目标 ); 
目标 而 误 判 为 没有 目标 )。 除 此 之 乡 


标 j 选择 假设 8; 为 真 ， 任 


腿 设 为 真 ， 
腿 设 为 真 ， 
j 选择 正确 ; b ) 称 为 第 一 类 错误 ， 
c) 称 为 第 二 类 错误 ， 


要 考虑 四 种 可 能 性 53: a) 
判别 为 Di ; c) 
判别 为 Di 。a) 
叫 作 虚 警 〈 没 
叫做 漏 报 
,在 多 目标 识别 中 将 目标 


Di 识别 为 目标 Pr(k=142…,n ,kz 站) 的 错误 判别 。 


f(z|Ho) 


1) 虚 警 率 


和 f(z’IH7)， 则 有 


P=>P(Di lai)= 
jl 


设 目标 2 在 判别 域 和 五 上 的 概率 密度 函数 分 别 为 


(11) 


~ | 
f 
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PFp(Dil) =$ | f(a la Ye (12) M2 在 KITTI 和 WD 数据 集 上 普通 测试 集 的 识别 与 检测 效果 。 
表 1 LSTM 插入 位 置 对 识别 率 的 影响 
3) 检测 率 Table 1 Effect of LSTM insertion position on recognition rate 
hh -YP(p IA7) -=> /7(z IHi )az (13) placed after dataset SE mAP(%) 
a 半 轩 Person Car Cyclist 
4) 误 检 率 baseline KITTI 73.36 71.53 65.32 70.07 
p22¥ ¥ pp VY YS zlpi)a Conv3 KITTI 66.72 61.32 59.03 62.36 
乞 乞 A Be ee Conv13 KITTI 7628 72.12 6449 70.96 
根据 定义 可 知 ， 虚 警 率 、 检 测 率 、 漏 警 率 与 误 检 率 之 和 feature mapl KITTI 77.21 75.08 68.62 73.64 
为 1。 在 实际 计算 时 ， 首 先 计 算 识别 率 ， 再 计算 误 报 率 、 漏 feature map2 KITTI 72.08 72.24 66.35 70.22 
报 率 ， 对 于 剩余 系统 识别 出 来 的 而 实际 不 存在 的 目标 种 类 作 feature map3 KITTI 72.16 71.02 67.13 70.10 
计数 来 计算 分 类 的 虚 警 率 。 对 于 多 目标 识别 中 的 虚 警 率 应 该 feature map4 KITTI 75.25 70.43 67.41 71.03 
计算 一 定时 间 段 内 积累 的 虚 警 率 。 对 于 数据 集 ， 采 用 求 平均 outputs KITTI 74.86 72.19 66.92 71.32 
的 方式 来 计算 整体 的 虚 警 率 、 漏 警 率 、 检 测 率 、 误 检 率 。 表 2 各 模型 识别 精度 对 比 
深度 学 习 通过 误差 的 反 向 传播 来 调整 神经 网 络 权 值 ， 达 Table 2 Comparison of recognition accuracy of each model 
到 建 模 的 目的 。 反 向 传播 兴 代 次 数 从 几 万 次 逐步 增加 到 数 十 AP(%) 
万 次 ， 直 到 训练 误差 趋 于 收敛 为 止 。 最 后 通过 计算 模型 在 测 oe daset Po Ca CR 0 
试 集 上 的 平均 准确 率 (average precision，4P) 和 所 有 类 别 的 KITTI 7336 71.53 65.32 70.07 
平均 准确 率 均值 (mean AP，m AP) 来 评价 模型 的 好 坏 。AP MD wD 71.59 69.63 62.75 67.99 
从 召回 率 和 准确 率 两 个 角度 衡量 检测 算法 的 准确 性 。4P 是 KITTI 85.18 79.35 74.69 79.14 
评价 深度 检测 模型 准确 性 最 直观 的 标准 ， 可 以 用 来 分 析 单 个 a WD 7252 7045 64.83 69.27 
类 别 的 检测 效果 。mAP 是 各 个 类 别 4P 的 平均 值 ，mAP 越 高 KITTI 88.42 81.73 74.38 81.51 
表示 模型 在 全 部 类 别 中 检测 的 综合 性 能 越 高 00。 wD 74.92 7234 ”65.63 70.96 
3.4 实验 设计 表 3 各 模型 检测 效果 对 比 
首先 将 各 个 策略 与 SSD512 进行 单独 结合 ， 进 行 相应 的 Table 3 Comparison of test results of each model 
对 比 实验 , 表明 各 个 策略 的 作用 。 然后 将 所 有 策略 与 SSD512 model dataset Pr (%) Pm (%) Pd (%) Pe (%) 
结合 ， 对 最 终 的 改进 算法 进行 整体 测评 。 用 训练 集训 练 原始 KITTI 2021 19.34 4132 19.13 
SSD512， 将 此 模型 记 为 M0， 在 M0 基础 上 加 入 LSTM 递归 Ba ey js 3883 20.54 
神经 网 络 ， 生 成 模型 M1; 在 M1 基础 上 加 入 动态 卡尔 曼 滤 KITTI 16.31 16.29 50.84 16.56 
波 策略 ， 生 成 模型 M2， 使 用 两 数据 库 测 试 集 对 M0、M1、 四 WD 18 17 19.49 43.45 18.89 
M2 进行 测试 和 对 比 。 KITTI 9.53 11.69 64.25 14.53 
另外 选取 了 Faster R-CNN、 不 需要 预 训练 模型 的 a WD 1624 15.19 51.16 1741 
DSOD30004 (deeply supervised object detector) 检测 框架 和 对 比 表 2.3 中 MO 和 M2 检测 结果 , 在 KITTI 数据 集中 ， 


YOLO 系列 检测 框架 中 的 升级 版 YOLOV2 544“， 以 及 SSD 。 各 类 有 目标 检测 的 AP 提高 了 9%~15% 不 等 ，mAP 提高 了 约 
的 改进 模型 DSSD09 (deconvolutional single shot detector) 作 11.44%， 虚 警 率 降低 10.68%， 检 测 率 提 高 22.93%， 漏 警 率 
为 深度 学 习 对 比 算 法 ， 与 M2 对 比 Web dataset 和 KITTI 数 降低 7.65%， 误 检 率 降低 二 6%， 在 WD 数据 集中 ， 名 类 目标 
据 集 上 的 检测 效果 。 对 比 检测 框架 算法 使 用 作者 发 布 的 官方 检测 的 AP 提高 了 1~3% 不 等 , mAP 提高 了 约 2.97%， 虚 警 
代码 中 的 默认 参数 设置 ， 与 M2 在 相同 训练 集中 进行 训练 。 率 降 低 3.01%， 检 测 率 提 高 12.33%， 漏 警 率 降 低 6.19% ， 误 


本 


利用 Web dataset 和 KITTI 数据 集中 的 测试 集 进行 测试 。 检 率 降低 3.13%。M2 模型 是 在 MO 基础 上 加 入 时 间 感 知 
3.5 算法 关键 参数 讨论 LSTM 网 络 和 动态 卡尔 曼 滤波 策略 训练 得 到 的 ， 通 过 在 两 个 
在 LSTM-SSD 体系 结构 中 卷 积 层 使 用 具有 384 通道 的 单 。 数据 库 上 的 测试 结果 与 MO 对 比 可 以 发 现 ，M2 相 较 于 M0， 


个 LSTM。 通 过 对 Botleneck-LSTM 和 feature map 层 应 用 附 。 多 目标 的 检测 率 得 到 了 较 大 提高 ， 多 目标 检测 的 虚 警 率 和 沁 
加 疮 积 来 获得 最 终 边界 框 。 警 率 降低 明显 ， 对 各 目标 的 识别 精度 和 平均 识别 精度 同样 获 

将 所 有 四 个 LSTM 门 计算 合并 为 单个 卷 积 ， 因 此 LSTM 。 得 了 较 大 的 提高 。 而 且 , 由 于 WD 数据 集 是 静态 图 像 数 据 集 ， 
计算 1 536 个 通道 的 门 但 仅 输出 384 个 通道 。 为 了 解决 过 拟 。 时 空 上 下 文 策略 无 法 生效 ， 改 进 效 果 不 如 在 视频 数据 身 
合 问 题 ， 采 用 分 两 阶段 的 方法 对 网 络 进行 训练 。 首 先 ， 在 没 KITTI 上 的 效果 明显 。 表 明基 于 时 间 感 知 特征 映射 的 移动 视 


有 LSTM 的 情况 下 微调 SSD 网 络 ; 然后 , 保持 基本 网 络 中 的 。 频 目 标 检测 改进 策略 能 够 有 效 降低 SSD512 对 视频 中 多 目标 


| 


A 


权重 ， 直 到 Conv13 层 (包括 Conv13 层 )， 并 在 剩余 的 训练 中 检测 的 漏 警 率 和 虚 警 率 ， 较 大 地 提高 目标 识别 精度 。 各 项 指 

插入 LSTM 层 。 I 标 提升 明显 ， 表 明 本 文 策略 总 体 对 于 弥补 SSD512 缺陷 的 有 
在 网 络 模型 中 的 不 同 层 之 后 放置 单个 LSTM 层 (Q=] )。 ”和 效 性 。 

表 1 证 实 了 将 LSTM 放置 在 特征 映射 之 后 可 获得 识别 性 能 也 对 比 表 2、3 中 M1 和 M2 检测 结果 , 在 KITTI 数据 集中 ， 

提高 ， 其 中 放 在 feature map1 层 后 提高 效果 最 为 明显 ， 从 而 ”各 类 目标 检测 的 AP 提高 了 1-4% 不 等 ，mAP 提高 了 约 


WN 


罗 让 是 高 检测 识别 ”2.67%， 虚 警 率 降 低 6.78%， 检 测 率 提高 13.41%， 漏 警 率 降 
灶 度 的 在 痊 性 a 
精度 的 有 效 性 。 低 4.6%， 误 检 率 降低 2.03%; 在 WD 数据 集中 ， 各 类 目标 检 


S1 合 2 jp < 
3.6 实验 结果 的 4P 提高 了 1~3% 不 等 ，mAP 提高 了 约 1.69%， 虚 警 
实验 结果 如 表 2、3 所 示 ， 分 别 对 比 了 模型 MO、MI1、 


党 


录用 定稿 华 


率 降低 1.93%， 检 测 率 提高 7.71%， 漏 警 率 降低 4.3%， 误 
率 降低 1.48%。M2 模型 是 在 M1 基础 上 加 入 动态 卡尔 曼 
波 跟 踪 策 略 训 练 得 到 的 ， 通 过 在 两 个 数据 库 上 的 测试 结果 


M1 对 比 可 以 发 现 ，M2 相 较 于 M1， 对 多 目标 的 检测 率 得 
了 较 大 提高 ， 多 目标 检测 的 虚 警 率 和 漏 警 率 降 低 明 显 ， 表 


检 
滤 
与 
到 
明 


动态 卡尔 曼 滤 波 跟踪 策略 有 效 增强 了 了 对 遮挡 等 强 干 扰 目 
检测 的 鲁 棒 性 。 
为 了 进一步 验证 M2 模型 已 经 学 习 到 视频 的 时 间 连 
性 ， 对 于 遮挡 等 干扰 具有 较 强 的 鲁 棒 性 ， 在 KITTI 视频 数 
集中 单 帧 图 像 上 创建 人 工 遮 挡 来 进行 测试 。 对 于 图 像 中 每 
目标 的 真实 检测 框 , 按照 目标 遮挡 率 p. e(0,1] , 来 设计 人 工 
挡 。 对 于 尺寸 为 HxW 的 目标 真实 检测 框 ， 在 检测 框 内 随 
选择 一 块 尺寸 为 pHxp.*W 的 区 域 ， 将 该 区 域内 的 所 有 像 
值 都 取 为 0， 这样 就 构成 了 人 工 遮 挡 。 将 KITTI 视频 数据 
中 普通 测试 集 每 隔 50 帧 随机 挑选 目标 构造 人 工 遮 挡 , 构造 
遮挡 鲁 棒 性 测试 集 ，M0、M3 在 这 个 测试 集 上 进行 测试 ， 
目标 遮挡 率 分 别 为 Pz=0.25、Pz=0.5、Pz=0.75、Pz=0.1， 

试 结果 如 表 4 所 示 
表 4 M2 抗 遮挡 干扰 效果 验证 


Table 4 M2 anti-occlusion interference verification 


出 


标 


续 
据 
个 
庶 
机 
素 
集 
抗 
取 
测 


Model ”Evaluation metric Pz=0.25 Pz=0.5 Pz=0.75 Pz=0.1 
MO mAP (%) 53.36 41.24 22.,15 12.89 
Pd (%) 33.58 21.56 12.33 4.25 
二 mAP (%) 74.28 66.82 59.79 51.58 
Pd (%) 60.35 55.62 51.16 42.39 
表 4 对 比 M0、M2 在 不 同 目标 遮挡 率 下 的 mAP、 检 测 
率 Pq, 可 以 发 现 本 文 的 方法 在 这 种 遮挡 噪声 数据 上 优 于 单 帧 
SSD 方法 ， 表 明 网 络 已 经 学 习 到 视频 的 时 间 连 续 性 ， 并 且 使 
用 时 间 线 索 来 实现 对 遮挡 噪声 的 鲁 棒 性 。 
利用 Web Dataset 和 KITTI 数据 集中 的 普通 测试 集 进行 
测试 。 检 测 识别 效果 如 表 5 所 示 ， 其 中 FPS 代表 算法 运行 的 


速度 、 帧 率 


表 5 各 检测 算法 检测 识别 效果 对 比 


Table 5 Comparison of detection and recognition effects of each 


detection algorithm 


AP(%) 
method dataset - mAP(%) 
Person Car Cyclist 
KITTI 83.26 74.13 75.42 77.61 
Faster R-CNN 
WD 81.49 71.33 68.65 73.82 
KITTI 77.43 72.26 68.38 72.69 
DSOD300 
WD 70.73 69.39 67.04 69.05 
KITTI 75.46 69.53 68.34 71.11 
DSSD513 
WD 72.19 68.83 66.45 69.16 
KITTI 79.43 71.25 67.32 72.66 
YOLOv2 544 
WD 73.29 69.63 68.85 70.59 
三 KITTI 88.42 81.73 74.38 81.51 
WD 74.92 72.34 65.63 70.96 
Pd (%) FPS 
45.22 13.15 
36.63 11.64 
58.68 58.23 
$52.32 50.35 
59.42 46.34 
49.79 39.38 
60.82 56.74 
54.86 49.28 
64.25 42.56 
51.16 32.83 
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在 KITTI 数据 集中 ， 各 类 目 


笠 
可， 
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也 深度 学 习 对 比 算法 检测 结果 ， 
标识 别 的 AP 提高 了 5~16% 不 
mAP 提高 了 约 4~10% 不 等 , 检测 率 提 高 4~19%; 在 WD 


期刊 


让 


对 比 表 5 中 M2 和 殿 


数据 集中 , 相 比 于 DSSD513、Faster R-CNN 检测 率 分 别提 高 


1.37% 、15.53% 。 虽 然 检测 


识别 速率 比 不 上 DSOD300、 


DSSD513、YOLOv2 544 等 检测 算法 , 但 是 FPS 也 能 达到 43 


帧 /s 


4 


现在 低 功 耗 移动 和 授 入 式 设备 上 实时 进行 视频 目 


题 ， 


， 基 本 能 够 满足 实时 性 的 要 求 。 
结束 语 


针对 现 有 基于 大 数据 和 深度 学 习 的 目标 检测 框架 难以 实 
标 检 测 的 问 
改进 了 基于 深度 学 习 的 目标 检测 框架 SSD, 提出 一 种 改 


进 的 多 目标 检测 框架 LSTM-SSD， 将 其 专用 于 交通 场景 视频 
多 目标 检测 。 实 验 表 明 , 改进 后 的 在 应 对 弱小 目标 、 多 目标 、 


打下 


直 晶 . 
L 月 乐 、 


光照 变化 、 模 糊 、 大 面积 遮挡 等 检测 难度 较 大 的 


情况 时 ， 均 能 获得 较 好 的 效果 ， 实 现 了 算法 精度 与 运行 速率 


的 平衡 ， 为 深度 学 习 在 特定 
的 思路 。 但 是 算法 的 处 理 效率 距离 工程 实际 应 用 的 需求 


标 检测 的 应 } 


提供 了 实例 和 新 
乃 然 


DY 


有 


对 低 分 辨 率 小 目标 的 识别 效果 并 不 理想 ， 后 期 如 


差距 ， 
何 降低 3 


f 量 提高 算法 的 实时 性 和 针对 低 分 辩 率 弱小 目标 的 


氏 运 


检 疯 
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